Predicción del éxito de posesiones en fútbol mediante algoritmos de aprendizaje supervisado

Martín Grau Pérez , Lucca Frachelle

2024-12-17

Introducción

Se cuenta con datos de tipo eventing de la consultora especializada StatsBomb (librería StatsBombR) los cuales registran la trayectoria de la pelota para cada uno de los 64 partidos, en este caso, de los mundiales 2022 en Qatar (masculino) y 2023 en Australia/Nueva Zelanda (femenino).

Concretamente, se registra cada una de las acciones (eventos) que ocurren con la pelota así como características relacionadas a éstas: partido, tiempo, duración, equipo, jugador, coordenada de la cancha así como otras variables relativas a cada tipo de evento según corresponda.

Cantidad de eventos por partido

Introducción

A raíz de esta información, se construyó un nuevo set de datos que resume las características de cada una de las posesiones de cada partido a través del cual se buscará predecir el éxito de cada una de esas jugadas utilizando como predictores dichas características.

La variable éxito se define a partir de la categorización de las jugadas:

  • Si la jugada termina en un tiro al arco

  • Si la jugada termina en un córner a favor

  • Si la mayoría de las acciones se realizan bajo presión del rival y pese a ello se logra mantener la posesión

  • Si la secuencia logra llegar hasta el área rival

  • Si la posesión comienza en campo propio y logra llevar al tercio final con al menos 3 acciones

  • Si el rival no logra recuperar la pelota y comete falta

Tanto las trayectorias en las que el rival logra recuperar la pelota así como aquellas que no cumplen ninguna de las 6 condiciones mencionadas se califican como no exitosas (variable éxito=0)

Variables a usar

Características de las Variables para el Modelo
Variable Descripción Tipo Rango
possession ID de la posesión Numérica 2:283
tiempo Duración en segs de la jugada Categórica 0:137.71
period Período del partido Numérica 1:4
possession_team.id ID del equipo en posesión Categórica
possession_team.name Nombre del equipo en posesión Categórica
team.name Nombre del equipo Numérica
n Cantidad de acciones de la jugada Numérica 2:146
x_inicio Coordenada X de inicio de la jugada Numérica 0.4:120.5
y_inicio Coordenada Y de inicio de la jugada Numérica 0:79.9
x_fin Coordenada X de fin de la jugada Numérica 0.1:120
y_fin Coordenada Y de fin de la jugada Numérica 0:79.9
n_eventos Número de eventos distintos Numérica 1:11
n_pases Número de pases Numérica 0:51
n_pasesC Número de pases completados Numérica 0:51
n_traslados Número de traslados Numérica 0:38
prom_av_p Promedio de avance por pase realizado Numérica -30.5:104.9
prom_av_t Promedio de avance por traslado realizado Numérica -17.4:56.9
n_jugadores Número de jugadores que participan en la jugada Numérica 1:17
n_centros Cantidad de centros Numérica 0:3
n_cdf Cantidad de cambios de frente Numérica 0:4
n_pases_arearival Número de pases dentro del área rival Binaria 0:3
n_ingresos_arearival Número de ingresos al área rival Categórica 0:2
inicia_golero Si la jugada inicia con el golero Categórica 0: no inicia golero, 1: inicia golero
resultado Estado del marcador al momento de la jugada Categórica 'Empatando', 'Ganando','Perdiendo'
zona_inicio Zona de inicio de la jugada Numérica 1:30
zona_fin Zona de fin de la jugada Numérica 1:30
xG Probabilidad de gol de la jugada (Expected Goal) Numérica 0:0.92805
vel_media_p Velocidad media de los pases Númerica -0.72:1067.5
vel_media_c Velocidad media de los traslados Númerica 0:2275
mundial Mundial al que pertenece el partido Binaria M='Masculino',F='Femenino'
vert_tot Verticalidad total de la posesión Númerica -119.6:116.4
horiz_tot Horizaontalidad total de la posesión Númerica -79.90:79.40
dist.promP Distancia promedio de los pases Númerica 0:108.08
dist.promC Distancia promedio de los trasldos Númerica 0:62.614
dist.medP Distancia mediana de los pases Númerica 0:108.06
dist.medC Distancia mediana de los traslados Númerica 0:62.614
presion Cantidad de acciones que se realizan bajo presión del rival Númerica 0:23
n_eq Cantidad de acciones del equipo que tiene la posesión Númerica 1:142
exito Éxito (o no) de la posesión Binaria 0: no éxito, 1: éxito

Dispersión por mundial

Posiciones y pases por partido según mundial

dispersión posesiones y pases por partido según mundial

Pases exitosos por partido y posesión

Correlación entre las variables

Correlaciones de las caracteristicas de las trayectorias

División en zonas

División en zonas de la cancha

Ejemplo de trayectorias

Variables a usar

Características de las Variables para el Modelo
Variable Descripción Tipo Rango
possession ID de la posesión Numérica 2:283
tiempo Duración en segs de la jugada Categórica 0:137.71
period Período del partido Numérica 1:4
possession_team.id ID del equipo en posesión Categórica
possession_team.name Nombre del equipo en posesión Categórica
team.name Nombre del equipo Numérica
n Cantidad de acciones de la jugada Numérica 2:146
x_inicio Coordenada X de inicio de la jugada Numérica 0.4:120.5
y_inicio Coordenada Y de inicio de la jugada Numérica 0:79.9
x_fin Coordenada X de fin de la jugada Numérica 0.1:120
y_fin Coordenada Y de fin de la jugada Numérica 0:79.9
n_eventos Número de eventos distintos Numérica 1:11
n_pases Número de pases Numérica 0:51
n_pasesC Número de pases completados Numérica 0:51
n_traslados Número de traslados Numérica 0:38
prom_av_p Promedio de avance por pase realizado Numérica -30.5:104.9
prom_av_t Promedio de avance por traslado realizado Numérica -17.4:56.9
n_jugadores Número de jugadores que participan en la jugada Numérica 1:17
n_centros Cantidad de centros Numérica 0:3
n_cdf Cantidad de cambios de frente Numérica 0:4
n_pases_arearival Número de pases dentro del área rival Binaria 0:3
n_ingresos_arearival Número de ingresos al área rival Categórica 0:2
inicia_golero Si la jugada inicia con el golero Categórica 0: no inicia golero, 1: inicia golero
resultado Estado del marcador al momento de la jugada Categórica 'Empatando', 'Ganando','Perdiendo'
zona_inicio Zona de inicio de la jugada Numérica 1:30
zona_fin Zona de fin de la jugada Numérica 1:30
xG Probabilidad de gol de la jugada (Expected Goal) Numérica 0:0.92805
vel_media_p Velocidad media de los pases Númerica -0.72:1067.5
vel_media_c Velocidad media de los traslados Númerica 0:2275
mundial Mundial al que pertenece el partido Binaria M='Masculino',F='Femenino'
vert_tot Verticalidad total de la posesión Númerica -119.6:116.4
horiz_tot Horizaontalidad total de la posesión Númerica -79.90:79.40
dist.promP Distancia promedio de los pases Númerica 0:108.08
dist.promC Distancia promedio de los trasldos Númerica 0:62.614
dist.medP Distancia mediana de los pases Númerica 0:108.06
dist.medC Distancia mediana de los traslados Númerica 0:62.614
presion Cantidad de acciones que se realizan bajo presión del rival Númerica 0:23
n_eq Cantidad de acciones del equipo que tiene la posesión Númerica 1:142
exito Éxito (o no) de la posesión Binaria 0: no éxito, 1: éxito

EDA

Univariado

Univariado

Univariado

Univariado

Univariado

Univariado

Univariado

Bivariado

Bivariado

Bivariado

Bivariado

Bivariado

Bivariado

Modelos

Modelos

Se proponenen 4 modelos distintos para el problema de clasificación de la variable exito. Una lasso, un árbol, un random forest y un LightGBM. La idea es usar la lasso para entender como influyen los distintos factores en la variable exito sin perder la interpretabilidad de los resultados. Los otros dos se proponen más con la idea de predecir la variable exito usando la información que se tiene en el conjunto de datos. Se eligen estos modelos uno produce menos overfitting(random forest) y otro produce menos error en la validación(LightGBM).

Lasso

Correlación entre las variables

Penalidad

Evolución de las métricas

Matriz de Confusion

Métricas

Metric Value
Accuracy 0.778
Sensitivity 0.735
Specificity 0.817
AUC 0.854

Arbol de Decisión

Evolución de las métricas

cost_complexity tree_depth min_n
1.94e-05 12 28

Árbol de Decisión Final

Matriz de Confusion

Métricas

Metric Value
Accuracy 0.867
Sensitivity 0.841
Specificity 0.890
AUC 0.929

Random Forest

mtry min_n
41 4

Matriz de Confusion

Importancia de las variables

Métricas

Metric Value
Accuracy 0.896
Sensitivity 0.911
Specificity 0.883
AUC 0.956

LightGBM

trees min_n tree_depth learn_rate loss_reduction
1211 12 11 0.02114 0.0012734

Matriz de Confusion

Importancia de las variables

Métricas

Metric Value
Accuracy 0.901
Sensitivity 0.899
Specificity 0.903
AUC 0.965

Comparación de los modelos

Model Performance Metrics
Model Accuracy Sensitivity Specificity ROC AUC
Lasso 0.778 0.735 0.817 0.854
Decision Tree 0.867 0.841 0.890 0.929
Random Forest 0.896 0.911 0.883 0.956
LightGBM 0.901 0.899 0.903 0.965

Análisis del Random Forest

Distriubución de posiciones iniciales

Errores del modelo en el testeo

Distriubución de posiciones finales

Errores del modelo en el testeo

Interpretabilidad del RandomForest

Interpretabilidad del RandomForest

Interpretabilidad del RandomForest

Interpretabilidad del RandomForest

Interpretabilidad del RandomForest

% error por equipo

Distribución de Errores

Errores segun ranking

Errores segun cantidad de jugadas

Verticalidad total y horizontalidad total

Modelos por mundial

Como extra se realizaron modelos segmentados por mundial, con la idea de evaluar la diferencia en el rendimiento entre los dos mundiales. Para ello, se utilizó el mismo proceso de modelado y evaluación que se detalló en el análisis de los modelos individuales. Se eligen los hiperparámetros que mejoren la curva de ROC AUC y los modelos usados fueron Random Forest y LightGBM.

Importancia de las variables

Horizontalidad por modelo

Modelo Masculino vs Modelo General

Erorres por modelo

Modelo Femenino vs Modelo General

Erorres por modelo